IoT sensors, especially video cameras, are ubiquitously deployed around the world to perform a variety of computer vision tasks in several verticals including retail, healthcare, safety and security, transportation, manufacturing, etc. To amortize their high deployment effort and cost, it is desirable to perform multiple video analytics tasks, which we refer to as Analytical Units (AUs), off the video feed coming out of every camera. In this paper, we first show that in a multi-AU setting, changing the camera setting has disproportionate impact on different AUs performance. In particular, the optimal setting for one AU may severely degrade the performance for another AU, and further the impact on different AUs varies as the environmental condition changes. We then present Elixir, a system to enhance the video stream quality for multiple analytics on a video stream. Elixir leverages Multi-Objective Reinforcement Learning (MORL), where the RL agent caters to the objectives from different AUs and adjusts the camera setting to simultaneously enhance the performance of all AUs. To define the multiple objectives in MORL, we develop new AU-specific quality estimator values for each individual AU. We evaluate Elixir through real-world experiments on a testbed with three cameras deployed next to each other (overlooking a large enterprise parking lot) running Elixir and two baseline approaches, respectively. Elixir correctly detects 7.1% (22,068) and 5.0% (15,731) more cars, 94% (551) and 72% (478) more faces, and 670.4% (4975) and 158.6% (3507) more persons than the default-setting and time-sharing approaches, respectively. It also detects 115 license plates, far more than the time-sharing approach (7) and the default setting (0).
translated by 谷歌翻译
将视频视为一系列图像(框架),并重新使用Deep Neur网络模型,这是一种常见的做法,这些模型仅在视频上的图像上接受图像进行培训。在本文中,我们表明,这种信念的飞跃是,在图像上运作良好的深度学习模型也将在视频上效果很好。我们表明,即使摄像机正在查看没有以任何可察觉的方式变化的场景,并且我们控制了视频压缩和环境(照明)等外部因素,视频分析应用程序的准确性也会显着波动。发生这些波动是因为摄像机产生的连续帧可能在视觉上看起来相似,但是视频分析应用程序对这些帧的看法却大不相同。我们观察到这些波动的根本原因是摄像机自动进行的动态摄像头参数更改,以捕获和生成视觉上令人愉悦的视频。摄像机无意间充当无意的对手,因为如我们所示,连续帧中图像像素值的这些微小变化对从视频分析任务中重新使用图像训练的深度学习模型的见解的准确性产生了显着不利影响。为了从相机中解决这种无意的对抗效应,我们探讨了转移学习技术通过从图像分析任务中学习的知识转移来改善视频分析任务中的学习。特别是,我们表明,我们新训练的Yolov5模型在跨帧的对象检测中减少了波动,从而可以更好地跟踪对象(跟踪中的错误少40%)。我们的论文还提供了新的方向和技术,以减轻相机对用于视频分析应用程序的深度学习模型的对抗性影响。
translated by 谷歌翻译
视频分析系统批判性地依赖于摄像机,捕获高质量的视频帧,以实现高分辨率的精度。虽然现代视频摄像机经常暴露数十个可配置的参数设置,但是可以通过最终用户设置的,但今天监控摄像机的部署通常使用固定的一组参数设置,因为最终用户缺少能够重新配置这些参数的技能或理解。在本文中,我们首先表明,在典型的监视摄像机部署中,环境条件变化可能会显着影响人员检测,面部检测和面部识别等分析单元的准确性,以及如何通过动态调整相机设置来减轻这种不利影响。然后我们提出了Camtuner,这是一个可以轻松应用于现有视频分析管道(VAP)的框架,以实现复杂相机设置的自动和动态调整,以改变环境条件,并自主优化VAP中分析单元(AU)的准确性。 Camtuner基于Sarsa加固学习(RL),它包含两种新型组件:轻量级分析质量估算器和虚拟相机。 Camtuner在一个具有轴监控摄像头的系统中实现,几个VAP(具有各种AUS),在机场入口处加工了日常客户视频。我们的评估表明Camtuner可以快速适应更改环境。我们将Camtuner与使用静态相机设置的两种替代方法进行比较,或者每小时手动更改摄像机设置的草兵方法(基于人类对质量)。我们观察到,对于面部检测和人检测AU,与两种方法中最好的相比,Camtuner分别可以获得高达13.8%和9.2%的更高的准确性(两个AUS的8%的平均提高)。
translated by 谷歌翻译
Structural alterations have been thoroughly investigated in the brain during the early onset of schizophrenia (SCZ) with the development of neuroimaging methods. The objective of the paper is an efficient classification of SCZ in 2 different classes: Cognitive Normal (CN), and SCZ using magnetic resonance imaging (MRI) images. This paper proposed a lightweight 3D convolutional neural network (CNN) based framework for SCZ diagnosis using MRI images. In the proposed model, lightweight 3D CNN is used to extract both spatial and spectral features simultaneously from 3D volume MRI scans, and classification is done using an ensemble bagging classifier. Ensemble bagging classifier contributes to preventing overfitting, reduces variance, and improves the model's accuracy. The proposed algorithm is tested on datasets taken from three benchmark databases available as open-source: MCICShare, COBRE, and fBRINPhase-II. These datasets have undergone preprocessing steps to register all the MRI images to the standard template and reduce the artifacts. The model achieves the highest accuracy 92.22%, sensitivity 94.44%, specificity 90%, precision 90.43%, recall 94.44%, F1-score 92.39% and G-mean 92.19% as compared to the current state-of-the-art techniques. The performance metrics evidenced the use of this model to assist the clinicians for automatic accurate diagnosis of SCZ.
translated by 谷歌翻译
当前的COVID-19大流行是对人类直接影响肺部的严重威胁。 Covid-19的自动识别是卫生保健官员的挑战。用于诊断Covid-19的标准黄金方法是逆转录聚合酶链反应(RT-PCR),以从受影响的人那里收集拭子。收集拭子时遇到的一些限制与准确性和长期持续时间有关。胸部CT(计算机断层扫描)是另一种测试方法,可帮助医疗保健提供者迅速识别受感染的肺部区域。它被用作在早期阶段识别Covid-19的支持工具。借助深度学习,COVID-19的CT成像特征。研究人员已证明它对COVID-19 CT图像分类非常有效。在这项研究中,我们回顾了最近可以用来检测COVID-19疾病的深度学习技术。相关研究是由Web of Science,Google Scholar和PubMed等各种数据库收集的。最后,我们比较了不同深度学习模型的结果,并讨论了CT图像分析。
translated by 谷歌翻译
农业是人类社会的支柱,因为它对每个生物体都是必需的。就人类而言,帕迪种植非常重要,主要是亚洲大陆,这是主食食品之一。然而,农业中的植物疾病导致生产力枯竭。植物疾病通常是由害虫,昆虫和病原体引起的,如果在特定时间内不受控制,它们的生产力将大规模降低至大规模。最终,人们看不到稻田产量的增加。准确,及时识别植物疾病可以帮助农民减轻由于害虫和疾病而导致的损失。最近,深度学习技术已被用来识别稻田疾病并克服这些问题。本文基于模型实现了卷积神经网络(CNN),并测试了由636个红外图像样本组成的公共数据集,其中有五个帕迪病类别和一个健康的类别。拟议的模型熟练地识别和分类的五种不同类型的帕迪疾病,准确度为88.28%
translated by 谷歌翻译
受生物学最复杂的计算机的启发,大脑,神经网络构成了计算原理的深刻重新重新制定。值得注意的是,在活细胞内部的信息处理分子系统(例如信号转导级联和遗传调节网络)内,在信息处理的分子系统中也出现了类似的高维,高度相关的计算体系结构。在其他物理和化学过程中,即使表面上扮演非信息处理的角色,例如蛋白质合成,代谢或结构自组装等表面上,神经形态集体模式是否会更广泛地发现。在这里,我们检查了多组分结构自组装过程中的成核,表明可以以类似于神经网络计算的方式对高维浓度模式进行区分和分类。具体而言,我们设计了一组917个DNA瓷砖,可以以三种替代方式自组装,从而使竞争成核敏感地取决于三个结构中高分化瓷砖共定位的程度。该系统经过训练,以将18个灰度30 x 30像素图像分为三类。在150小时的退火过程中和之后,在实验上,荧光和原子力显微镜监测确定所有训练有素的图像均正确分类,而一组图像变化集探测了结果的鲁棒性。尽管与先前的生化神经网络相比缓慢,但我们的方法令人惊讶地紧凑,健壮且可扩展。这种成功表明,无处不在的物理现象(例如成核)在将高维多分量系统缩放时可能具有强大的信息处理能力。
translated by 谷歌翻译
一种名为Covid-19的新发现的冠状病毒疾病主要影响人类呼吸系统。 Covid-19是一种由起源于中国武汉的病毒引起的传染病。早期诊断是医疗保健提供者的主要挑战。在较早的阶段,医疗机构令人眼花azz乱,因为没有适当的健康辅助工具或医学可以检测到COVID-19。引入了一种新的诊断工具RT-PCR(逆转录聚合酶链反应)。它从患者的鼻子或喉咙中收集拭子标本,在那里共有19个病毒。该方法有一些与准确性和测试时间有关的局限性。医学专家建议一种称为CT(计算机断层扫描)的替代方法,该方法可以快速诊断受感染的肺部区域并在早期阶段识别Covid-19。使用胸部CT图像,计算机研究人员开发了几种识别Covid-19疾病的深度学习模型。这项研究介绍了卷积神经网络(CNN)和基于VGG16的模型,用于自动化的COVID-19在胸部CT图像上识别。使用14320 CT图像的公共数据集的实验结果显示,CNN和VGG16的分类精度分别为96.34%和96.99%。
translated by 谷歌翻译